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摘要 : [ 目的/ 意义] 识别 领域 发 展 路 径 对 于 科技 创新 具有 重要 意义 ,但 现 有 方法 如 专家 访谈 、 引 文 分 析 等 


能 适应 文献 爆发 性 增长 的 现状 ,针对 这 一 问题 ,提出 一 种 基于 主题 变迁 的 领域 发 展 路 径 识别 方法 。 [方法 /过 
] 该 方法 可 以 自动 从 Aminer 平台 获取 数据 ,通过 构建 关键 词 -学 者 适 阵 ,综合 使 用 KMeans++ 和 谱 聚 类 算法 


识别 出 研究 主题 和 相关 学 者 ;通过 相似 度 计算 实现 不 同 主题 之 间 的 关联 ,最 终 获 得 研究 领域 的 发 展 路 径 并 进行 
可 视 化 展示 。[ 结果 /结论 ] 通 过 对 人 工 智能 领域 的 实证 分 析 , 结 果 表 明 该 方法 能 够 有 效 反映 领域 研究 主题 的 变 
i 仿 有 助 于 研究 者 快速 定位 领域 的 研究 热点 和 重点 ,丰富 领域 发 展 路 径 相关 的 研究 方法 。 


i 关键 词 : 领域 发 展 路 径 主题 变迁 ”KMeans++ 
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领域 发 展 路 径 描述 了 领域 中 研究 主题 的 产生 、 变 
迁 利 消亡 的 全 过 程 , 它 可 以 帮助 研究 人 员 理 解 领域 的 
研究 历史 和 现状 ,快速 识别 研究 的 前 沿 热点 问题 "1。 
党 产 运 用 德尔 非法 "AHP" 等 方法 进行 了 一 系列 相 
关 研 究 ,这些 方法 大 多 是 基于 专家 知识 的 定性 分 析 , 偏 
重 毛 设 定 合适 指标 。 另 有 一 些 研究 者 利用 主 路 径 分 
析 和 研究 技术 的 变迁 中 ,然而 主 路 径 分 析 仅 用 一 个 线性 
结构 难以 完整 反映 领域 演变 ,会 造成 诸多 演变 细节 的 
ERO, HFRS AHP 和 主 路 径 方法 为 代表 的 
传统 方法 存在 偏 误 , 近 些 年 学 者 们 开始 转向 使 用 主题 
变迁 进行 领域 发 展 路 径 的 研究 。 主 题 变 迁 是 指 一 个 领 
域 的 研究 主题 的 内 容 和 热度 随 着 时 间 变 化 的 现象 ”， 
通过 挖 据 深 层次 的 科技 文本 语义 信息 ,能 够 有 效 解决 
传统 方法 存在 的 问题 ,通过 可 视 化 的 方式 进行 展示 ,可 
以 从 更 全 面 的 视角 感知 领域 发 展 路 径 。 

本 文 提出 一 种 基于 主题 变迁 的 领域 发 展 轨迹 智能 


化 识别 方法 ,数据 通过 API 从 AMiner 上 自动 获取 ,无 
需 手动 下 载 ,通过 Kmeans++ 和 谱 聚 类 联 用 ,一 方面 可 
以 控制 主题 的 粒度 , 男 一 方面 可 以 动态 地 调整 主题 数 
量 。 实 现 输入 领域 名 称 , 即 自动 获得 该 领域 发 展 路 径 
图 的 智能 化 流程 ,并 且 从 图 中 可 以 清晰 看 出 各 个 时 间 
段 的 研究 主题 和 相关 学 者 。 文 章 的 最 后 以 人 工 智能 领 
域 为 例 进行 实验 以 验证 方法 的 有 效 性 。 


2 相关 研究 


2.1 主题 变迁 

主题 变迁 又 称 主题 演化 ,通常 使 用 数据 挖 气相 关 
方法 探索 主题 内 容 和 强度 在 时 间 维 度 上 的 变化 以 及 不 
同 主题 之 间 的 交互 ”。 随 着 文献 爆发 式 增长 ,主题 变 
迁 分 析 面 临 着 数据 量 大 和 数据 类 型 复杂 的 挑战 ,如 何 
从 海量 的 数据 中 快速 准确 获取 领域 发 展 脉络 ,是 科研 
人 员 和 情报 人 员 共 同 关心 的 问题 。 国 内 外 学 者 针对 这 
一 问题 提出 了 很 多 模型 ,和 本 文 相关 的 方法 主要 分 为 
两 类 :一 是 基于 聚 类 分 析 模 型 的 方法 ,二 是 基于 概率 主 


* 本 文系 国家 自然 科学 基金 “支持 技术 预见 的 多 源 异 构 大 数据 融合 与 时 序 文本 预测 方法 研究 ”( 项 目 编号 :91646102 ) 和 国家 自然 科学 基金 
“面向 2035 的 中 国 工 程 科 技 发 展 路 线 图 绘制 理论 与 方法 研究 ”( 项 目 编号 :L1624045 ) 研究 成 果 之 一 。 


作者 简介 : 


周 源 (ORCID :0000 -0002 -9198 —6586) ,副教授 ,博士 生 导 师 ; 张 超 (ORCID: 0000 -0001 -7612 -9327 ) ,硕士 研究 生 ; 唐 杰 (OR- 


CID: 0000 -0003 -3487 -4593 ) ,副教授 ,博士 生 导 师 ; 刘 宇 飞 (ORCID ,0000 -0001 -9420 -8811) ,博士 后 ,通讯 作者 ,E-mail;liuyufei0418@qq. 


com ; 3k F 46 ( ORCID :0000 -0002 -5759 - 1230) ,博士 研究 生 


收 稿 日 期 :2017 -11-21 修 回 日 期 :2018 -03 -14 本 文 起 止 页 码 :62 -71 本 文责 任 编辑 : 刘 远 颖 


62 


AR, 张 超 , A, 等 .基于 主题 变迁 的 领域 发 展 路 径 智能 化 识别 


jna T 


ChinaX ive HRF! 
"Vez TU DNE UP RR 


62-71. 
题 模型 的 方法 。 变量 ,AT 可 以 获得 作者 - 主题 分 布 , 但 这 一 模型 隐 含 


基于 聚 类 分 析 模 型 的 主题 变迁 方法 主要 应 用 于 话 
题 检 测 与 追踪 (TDT) 领域 和 文献 计量 学 领域 。TDT 将 
话题 定义 为 具体 时 间 地 点 发 生 的 事件 ,该 方法 聚焦 于 
新 闻 文 本 流 的 话题 演化 上 ,包括 事件 内 容 的 演化 和 强 
度 的 演化 ”。 文献 计量 相关 方法 包括 引文 分 析 、 共 词 
分 析 耦合 分 析 等 ,这 些 方法 的 核心 思路 是 各 种 “ 共 现 


THE 


的 假设 每 个 作者 只 有 一 个 主题 ” ,不 适应 作者 研究 主 
题 多 样 且 不 断 变化 的 实际 情况 。D. M. Blei 等 提出 
RTM 模型 Relational Topic Model) ^" ,通过 将 文档 内 
容 和 文档 之 间 的 链接 混合 建 模 ,实现 更 好 的 词汇 预测 
和 链接 预测 ,但 如 果 没 有 预测 链接 这 一 需求 ,RTM 模 
型 稍 显 复杂 。 利 用 上 述 两 种 主题 模型 可 以 更 好 地 识别 


分 析 ” 。 崔 雷 等 "使 用 引文 共 引 聚 类 研究 领域 发 展 历 
史 , 并 通过 对 高 频 词 进行 共 现 聚 类 分 析 , 总 结 研究 主 
M. RERU 对 国内 基于 共 词 分 析 法 的 主题 演化 
方法 进行 了 总 结 ,将 分 析 流 程 划 分 为 5 个 步骤 :确定 数 
据 源 、 演 化 阶段 划分 .确定 分 析 对 象 .构建 共 词 矩 阵 并 
归 一 化 主题 演 化 分 析 。 刘 志 辉 等 5 提出 作者 关键 词 
耦合 网 络 ( AKCA ) ,这 一 模型 可 以 发 现 作者 之 间 的 隐 
含 的 关系 ,并 且 随 着 作者 发 文 量 的 增多 ,AKCA 可 通过 
关键 词 的 而 合 强度 变化 识别 领域 主题 的 变化 。 上 述 3 
邹 法 较为 简单 ,能 够 适用 于 不 同 的 领域 ,并 且 现 阶 段 
有 多 种 成 熟 的 分 析 工 具 ( 如 Citespace .NEViewer) 可 用 
无 送 献 计量 分 析 。 然 而 引文 分 析 存在 时 滞 性 问题 , 同 
面临 着 链接 数量 庞大 、 耗 费 资源 多 的 问题 ; 共 
请 分 析 对 关键 词 的 选择 具有 较 强 的 敏感 性 2 ,分 析 结 
果 团 能 会 因为 词 的 选择 带 来 较 大 差异 ;作者 关键 词 精 
从 从 析 侧 重 于 分 析 作者 合作 关系 ,通过 作者 的 高 频 关 
键 词 间接 获得 研究 主题 。 
< 基于 概率 主题 模型 的 主题 变迁 方法 在 近 些 年 获得 
越 案 越 多 的 关注 ,李湘 东 等 使 用 LDA 模型 和 JS 散 度 研 
究 主 题 内 容 和 主题 强度 随时 间 的 变化 "”。 倪 丽 萍 等 
EF LDA 模型 识别 不 同时 间 片 上 的 技术 主题 ,并 通过 
AP 聚 类 算法 对 全 局 的 主题 进行 聚 类 ,形成 领域 的 发 展 
JESUS. D. M. Blei 等 提出 动态 主题 模型 (Dynamic 
Topic Model)" ,认为 主题 随 着 时 间 不 断 变化 ,根据 发 
表 时 间 将 文档 划分 到 不 同 的 时 间 片 中 ,每 一 个 时 间 片 
分 别提 取 主 题 ,再 用 KL 散 度 计算 不 同时 间 片 主题 分 
布 相似 度 。 基 于 主题 模型 的 方法 能 够 解决 引文 分 析 中 
固有 的 时 沾 性 问题 , 相 比 共 词 分 析 可 以 挖掘 出 深层 次 
的 语义 信息 ,但 是 其 揭示 的 只 是 统计 概率 层面 的 语义 
关系 ,并 且 主 题 个 数 需要 提前 指定 ,无 法 动态 调整 。 
现 阶段 绝 大 多 数 主题 变迁 方法 都 是 针对 文献 的 内 
部 特征 , 即 文档 内 容 本 身 进行 分 析 , 如 何 将 学 术 文献 中 
包含 的 外 部 特征 ( 如 作者 .发表 期 刊 等 ) 融 合 进 主题 分 
析 中 ,学 者 们 针对 不 同 的 特征 提出 了 相对 应 的 算法 模 
型 。 其 中 典型 方法 是 Rosen-Zvi 提出 的 AT 模型 (author 
-topic model)" ,通过 在 LDA 模型 基础 上 加 上 作者 隐 


不 同时 间 片 中 的 主题 ,再 根据 KL 距离 或 JS 散 度 计算 
不 同 主题 之 间 的 相似 度 从 而 实现 主题 关联 ,经 过 关联 
过 滤 之 后 获得 最 终 的 主题 变迁 结果 。 

2.2 路径 可 视 化 

为 了 便于 直观 了 解 领域 发 展 路 径 , 主题 变迁 需要 
进行 可 视 化 展示 。 主 题 变 迁 和 可 视 化 关系 密 不 可 分 ， 
可 视 化 是 为 了 更 好 地 进行 主题 变迁 分 析 。 现 有 的 路 径 
可 视 化 方法 众多 , 其 中 陈 超 美 基于 java 开发 出 
Citespace, 具 有 引文 分 析 、 时 序 网 络 可 视 化 等 功能 |。 
S. Havre 等 推出 ThemeRiver 模型 ,通过 “河流 ”的 宽度 
反映 主题 强度 随 着 时 间 的 变化 ”。 微 软 亚洲 研究 院 
提出 TextFlow 方法 ,在 文本 分 析 中 添加 主题 融合 和 分 
型 信息 ” 。 本 文采 用 加 权 雅 克 比 相似 度 进行 主题 关 
联 , 并 借鉴 了 TextFlow 方法 的 精髓 ,设计 了 和 本 文 路 径 
识别 方法 相 适应 的 可 视 化 方法 。 

综 上 所 述 ,领域 研究 主题 变迁 包含 多 种 因素 ,例如 
研究 内 容 演变 与 学 者 变迁 。 因 为 专家 学 者 是 科学 研究 
的 主体 ,一 些 杰出 学 者 往往 引领 着 学 科 的 发 展 ,可 以 通 
过 挖掘 杰出 学 者 公开 发 表 的 科技 文献 ,发现 科学 领域 
的 主要 研究 主题 以 及 主题 之 间 的 联系 ” 。 关 键 词 反 
映 了 学 者 的 研究 内 容 , 一 些 关键 词 被 某 一 学 者 在 发 表 
的 文章 中 提 及 ,可 能 表明 这 些 关键 词 之 间 存 在 一 定 的 
关联 关系 ;如 果 这 些 关 键 词 被 不 同 的 作者 提 及 ,可 
能 说 明 不 同 作 者 认可 这 些 关键 词 之 间 的 关联 关系 。 相 
比 共 词 分 析 , 通 过 以 作者 为 词 共 现 单元 构建 关键 词 - 
作者 矩阵 ,经 过 聚 类 得 到 的 关键 词 徐 具 有 更 深层 次 关 
联 关系 。KMeans++ 适应 海量 文本 聚 类 的 场景 ,与 谱 聚 
类 结合 使 用 , 相 比 主题 数量 固定 的 主题 模型 ,能 够 实现 
动态 调整 类 别 个 数 ,该 方法 具有 一 定 的 灵活 性 。 采 用 
相似 度 阔 值 法 关联 相 邻 时 间 段 内 的 主题 ,并 利用 D3. js 
语言 将 主题 变迁 结果 可 视 化 展示 ,可 以 清晰 地 展示 领 
域 发 展 路 径 。 


3 方法 流程 
图 1 是 本 方法 的 整体 流程 ,主要 包括 数据 来 源 与 
预 处 理 ,主题 识别 ,主题 关联 和 关联 网 络 可 视 化 4 步 。 
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图 1 方法 流程 


3.1 数据 来 源 与 预 处 理 

数据 源 选取 AMiner 科技 数据 库 ” ,AMiner 通过 
燃 据 挖 气 和 社会 网 络 分 析 等 方法 ,提供 精准 的 领域 专 
FETE ,并且 该 平台 数据 开源 ,可 以 通过 API 方便 获取 
碘 阁 所 需 的 专家 学 者 及 学 者 发 表 的 论文 数据 。 本 文 提 


tli nae T oen -专家 的 通用 方法 ,通过 AMiner 
可 翅 确 定 领 域 相关 的 专家 学 者 ,通过 API 获取 这 些 专 
寨 的 所 有 发 表 的 文献 。 数 据 预 处 理 流程 分 为 提取 关键 
请。 河 形 还 原 ,去除 停 用 词 3 个 步 又 。 

C01) 提取 关键 词 。 英 文 文献 由 于 其 语言 特性 ,不 
顷 轴 进行 分 词 处 理 。 然 而 单个 词汇 表达 的 含义 不 具 
近亲 对 词汇 而 言 , 短 语 是 更 有 意义 的 语义 结构 。 本文 
使 是 RAKE 9E 7 提取 标题 和 摘要 中 长 度 为 2 个 单 
infe 3 个 单词 的 短语 ,作者 提供 的 关键 词 直接 添加 进 
M Dd 

- 己 英 文中 的 关键 词 通 常 由 多 个 单词 组 成 ,关键 词 中 
不 做 有 标点 符号 ,也 很 少 存在 一 些 虚词 ,例如 an, this, 
but 等 。RAKE 算法 根据 标点 符号 将 文档 分 割 成 若干 
个 子 句 , 然 后 使 用 停 用 词 将 句子 继续 分 成 一 些 短语 ,并 
将 这 些 短语 作为 潜在 关键 词 。 每 个 短语 的 分 数 是 由 构 
成 短语 的 词 累积 而 成 : 


wordDegree( w) 


score(w) = 


wordFrequency ( w) A) 
其 中 ,score 为 单词 w 的 得 分 ,wordDegree 表示 为 单 
词 w 的 度 ( 每 当 与 一 个 单词 共 现 时 , 度 加 1) ,wordFre- 
quency 表示 为 单词 w 在 文档 中 出 现 的 总 次 数 。 
(2) 词 形 还 原 。 英 文 单词 具有 多 种 形式 ,所 以 需 
要 对 关键 词 进行 词 形 还 原 处 理 , 即 合 并 一 些 实际 意义 
相同 ,但 形式 不 同 的 单词 。 针 对 词 形 还 原 , 本 文采 用 


tellig" “data mine" 等 ;去 除 一 些 无 意义 的 词汇 ,如 “case 
studi” “data source" 等 。 去 除 停 用 词 之 后 ,获得 最 终 的 
关键 词 列表 。 
3.2 ”基于 学 者 特征 识别 主题 

为 了 识别 不 同时 间 段 内 的 主题 ,首先 需要 将 时 间 
序列 划分 为 若干 个 长 度 为 工 的 时 间 片 ,根据 发 表 时 间 ， 
将 文献 划 入 到 相应 的 时 间 片 中 。 之 前 关键 词 聚 类 大 多 
使 用 共 词 矩阵 ,本文 尝 试 以 学 者 为 特征 , 即 关键 词 为 行 
向 量 ,学 者 为 列 向 量 ,使 用 KMeans++ 算法” 对 单个 时 
间 片 内 的 关键 词 进行 聚 类 ,得 到 的 关键 词 簇 可 认为 是 
时 间 片 的 研究 主题 。 关 键 词 可 以 利用 向 量 空间 模型 
(VSM) 进行 表示 ,其 中 每 个 学 者 为 一 个 维度 则 每 个 关 
键 词 t 映射 成 为 : 

vt) = a, tfi s ai, tfi s anth) 式 (2) 

其 中 a,(i=1,2,…, nn) 表 示 第 i 个 作者 ,tf 表示 
为 在 第 i 个 作者 所 有 的 文章 中 关键 词 出现 的 频次 。 
关键 词 -作者 关联 矩阵 如 下 所 示 : 


ra 


1 a; Qa 


1 tf, Eon tf, db tf, 


Matrix = 式 (3 ) 
t tf, Ss Lf, 
LER ee Ry ce o4 
3.2.1 利用 Kmeans++ 算法 识别 主题 KMeans++ 是 


基于 传统 KMeans 算法 的 一 种 改进 算法 。KMeans 以 距 
离 作为 划分 类 别 的 标准 ,通过 KMeans 聚 出 的 类 别 具 有 
同类 别 中 相似 度 高 .不 同类 别 中 相似 度 低 的 特点 。 
然而 ,KMeans 需要 在 聚 类 之 前 人 工 指 定 初 始 聚 类 中 
心 ,Kmeans++ 算法 可 以 解决 这 一 缺点 ,通过 最 大 化 初 
始 聚 类 中 心 ( 质 心 ) 之 间 的 距离 , 选 出 较 优 的 聚 类 中 
心 。KMeans++ 算法 具有 运算 速度 快 . 调 参 方 便 、 易 于 
理解 结果 的 特点 ,适用 于 海量 文本 聚 类 的 情形 。 

3.2.2 谱 聚 类 合并 相 邻 主题 ”使 用 基于 图 结构 的 谱 
聚 类 算法 '” ,合并 相似 且 同 一 时 间 片 的 节点 ,最 终 得 
到 领域 在 时 间 片 内 的 研究 主题 。 不 论 是 Kmeans 算法 
还 是 Kmeans++ 算法 ,始终 面临 着 在 聚 类 前 需要 事先 给 
出 初始 的 聚 类 个 数 这 一 问题 ,现实 中 很 多 时 候 即 使 是 
专家 学 者 也 不 能 确定 该 分 多 少 类 合适 ,但 是 可 以 确定 
个 大 概 的 范围 , 即 这 个 时 间 片 内 最 多 会 有 多 少 个 主 


NLTK 中 Stemming 算法 进行 词 形 还 原 。 
G) 去 除 停 用 词 。 词 形 还 原 之 后 ,需要 去 除 停 用 
词 :去 除 一 些 意思 过 于 宽泛 的 关键 词 ,例如 ”artifici in- 
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题 。 由 此 在 初次 聚 类 时 需要 专家 确定 主题 数量 范围 ， 
之 后 采用 谱 聚 类 算法 ,对 Kmeans++ 算法 已 经 识别 出 的 
主题 进行 二 次 聚 类 ,合并 同一 时 间 片 内 的 相似 主题 得 
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62 -71. 
到 最 终 主题 。 w(t, TUT) 2 max(w(t,T;) , w(1,T;)) 


WERKA — NTE: 

(1) Pos 4p HEAR E dE EOROS TREE P, P 
构建 邻接 矩阵 W( 即 主题 相似 度 和 矩阵 )”"。 采 用 加 权 
雅克 比 相似 度 算法 计算 主题 节点 之 间 的 相似 度 :以 关 
键 词 的 词 频 作为 权重 ,逐一 计算 每 个 主题 和 所 有 主题 
之 间 的 相似 度 ,最 终 得 到 相似 度 徐 阵 。 

(2)id D 是 度 和 矩阵, 计算 Laplacian 矩阵 = D-W, 
并 用 式 (4) 将 Laplacian 矩阵 标准 化 : 

L, =D LD” 式 (4) 

(3) HE Ly 的 前 大 个 最 小 特征 值 对 应 的 特征 向 量 
9,0370, E Vo [wma], 其 中 矩阵 了 的 行 数 
为 主题 节点 个 数 , 列 数 为 。 
本 (4) 利用 KMeans 算法 将 矩阵 了 聚 成 * 个 类 。 
3,973. 主题 相关 作者 识别 ”为 了 探索 领域 中 最 重要 
的 研究 主题 变化 ,本 文选 取 领 域 的 核心 研究 学 痢 ,并 搜 
集 吴 些 学 者 发 表 的 文章 。 如 果 某 个 关键 词 在 某 一 学 者 


vfum 


的 英 章 中 多 次 出 现 ,可 以 表明 该 学 者 对 关键 词 所 代表 
的 研究 主题 做 了 大 量 研究 ,并 间接 说 明 该 学 者 对 该 领 
域 避 有 一 定 的 影响 力 。 
CJ 经 过 两 次 聚 类 ,所 有 的 关键 词 被 分 配 到 若干 主题 
dC Od TXEXETETIIS EE (atf, tpi; 
SÒN f 代表 的 是 学 者 a 发 表 的 文章 中 提 及 该 关键 
词 其 的 次 数 ,所 以 可 以 认为 向 量 中 /最 大 数值 所 对 
诀 阅 学 者 对 关键 词 研究 较 多 ,并 且 该 学 者 对 关键 词 所 
代 涯 的 领域 影响 力 较 大 。 由 此 ,通过 计算 每 个 主题 的 
质 恋 , 根 据 质心 向 量 中 每 一 位 数值 大 小 ,可 以 确定 主题 
研 笑 中 影响 力 较 大 的 学 者 。 
3.3 ”基于 相似 度 计算 实现 主题 关联 

经 过 两 次 聚 类 得 到 不 同时 间 窗 口 的 主题 ,然而 这 
些 主题 都 是 相互 独立 的 ,为 了 进一步 分 析 主 题 的 变迁 ， 
需要 对 已 经 识别 出 的 不 同时 间 窗 口 的 主题 进行 关联 。 
主题 变迁 的 实质 是 主题 内 容 的 改变 , 相 邻 时 间 片 内 的 
主题 可 以 通过 相似 度 计算 得 到 关联 关系 。 

此 处 使 用 加 权 雅 克 比 相似 度 算法 进行 不 同时 间 窗 
口 主题 之 间 相似 度 计算 。 记 第 ; 时间 有 段 的 第 i 个 主题 
HT se Y 时 间 段 的 第 7 S ERBUR T wa, T) 28 
关键 词 ; 在 时 间 段 * 中 出 现 的 频次 : 


"7556, , tj 


w(Ti) 2 X, rw,Ti) 式 (5) 
weh mn WCT ATH) 、 
sim( T; ， T; ) SUT UT 式 (6) 


其 中 ， 
w(t,T, YT) 2 min(Qw(t,T,) , w(t, T7 )) XO) 


式 (8) 

本 文 得 到 的 主题 由 一 系列 关键 词组 成 ,可 以 通过 
加 权 雅 克 比 相似 度 计算 不 同 主题 之 间 的 相似 性 ,从 而 
关联 主题 得 到 一 系列 主题 对 ,由 于 这 些 主题 对 相似 度 
高 ,可 认为 存在 主题 变迁 关系 。 基 于 相似 度 计 算 会 产 
生 一 些 内 容 延 续 不 明显 的 无 效 关联 ,所 以 需要 对 关联 
的 主题 进行 过 滤 , 从 而 突出 核心 的 主题 变迁 。 本 文采 
j 设 定 阔 值 法 进行 关联 过 滤 : 记 第 * 时 间 段 中 的 所 有 
主题 与 ”的 相似 度 总 和 为 sum,e 为 相对 阐 值 ,如 果 
sim(T; ,T;*  ) /sum <e, 则 可 认为 关联 无 效 。 经 过 过 波 
的 主题 对 有 较 强 关联 ,能 够 表示 主题 变迁 。 
3.4 ”关联 网 络 可 视 化 设计 

本 文 基于 D3. js 对 关联 结果 进行 可 视 化 展示 , 便 
于 科研 人 员 和 管理 者 直观 地 了 解 领域 的 发 展 动态 。 通 
过 相似 度 计算 ,不同 时间 窗口 的 主题 建立 了 关联 ,通过 
可 视 化 处 理 , 有 助 于 理解 与 分 析 技 术 主题 的 发 展 。 

主题 变迁 涉及 4 类 信息 :主题 强度 .主题 内 容 、 关 
联 关系 .主题 相关 学 者 。 在 可 视 化 设计 中 ,包括 了 点 、 
线 两 种 显示 元 素 , 其 中 点 表示 时 间 片 上 的 主题 , 线 表 示 
主题 之 间 的 关联 。 为 了 显示 更 多 的 信息 ,本 方法 生成 
的 领域 发 展 路 径 可 以 通过 Web 查看 ,并 添加 了 一 定 程 
度 的 交互 :鼠标 移动 到 主题 点 上 ,出现 Top5 的 高 频 词 和 
相关 度 最 高 的 5 名 学 者 ;鼠标 按 住 节点 可 以 实现 拖 动 。 

(1) 主 题 强度 。 主 题 强度 是 研究 主题 的 热度 ,本 
文 识别 出 的 主题 是 一 组 关键 词 的 集合 ,因此 主题 强度 
采用 主题 中 包含 的 关键 词 的 词 频 总 和 进行 度量 。 在 可 
视 化 设计 中 ,主题 强度 通过 节点 宽度 node_width 表示 : 
Nr 
Eu) 
其 中 node, width; 表示 第 * 时间 片 上 第 i 个 主题 的 
强度 ,w(7T) 表 示 该 主题 的 总 词 频 ,num_doc(s) 为 第 。s 
时 间 片 内 论文 的 数量 。 

(2) 主 题 内 容 。 包 括 主题 名 称 和 主题 内 关键 词 ， 
不 同 的 关键 词 共 同 构成 了 主题 的 研究 内 容 。 本 文采 用 
主题 中 词 频 最 高 的 关键 词 作为 主题 名 称 ,并 在 弹 框 中 
显示 Top5 的 高 频 词 。 

(3 ) 关 联 关系 。 相 邻 时 间 片 的 主题 之 间 相 互 连 
接 ,形成 变迁 关系 。 假 定 主题 开 MT” ERAK, 
由 于 相同 的 关键 词 在 不 同 主题 中 的 所 占 比例 不 同 , 连 
接线 两 端的 粗细 不 同 。 

前 向 宽度 为 连接 线 在 s+1 时 间 片 上 显示 的 宽度 ， 


e 


式 (9) 


node width; = 
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sim( T; ， D 
3x10) 
其 中 sim 7”) 表 示 和 主题 ”形成 关联 关系 对 
应 的 相似 度 和 。 
后 向 宽度 为 连接 线 在 s 时 间 片 上 显示 的 宽度 ， 
simCT;, T7) 
sim( T; ) 
AL 
其 中 sim CT; ) zo I 38 T; 形成 关联 关系 对 应 的 
相似 度 和 。 
(4) 主 题 相 关 学 者 。 弹 框 中 显示 在 人 研究 主题 中 影 
响 力 Top5 的 学 者 。 


4 ”实验 与 结果 分 析 


4 案例 选择 与 数据 处 理 
(为 了 验证 领域 发 展 路 径 识 别 方法 的 有 效 性 , 本文 


forward, width = node width; Ux 


backward, width = node, width; x 
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获取 人 工 智 能 领域 专家 学 者 。 人 工 智能 发 展 时 间 较 
长 ,为 了 从 复杂 的 领域 发 展 中 找 出 最 核心 的 变化 ,本文 
选择 领域 Top100 专家 学 者 ,之 后 同样 通过 API 获取 这 
些 专家 的 全 部 论文 数据 。 由 于 ”人工 智能 ”一 词 起 源 
于 1956 年 的 达 特 茅 斯 会 议 ” ,本 文 限制 论文 的 时 间 
跨度 从 1956 年 到 2017 年 ,共计 获得 25 614 篇 文章 。 
根据 王 丽 雅 发 现 的 计算 机 领域 论文 的 5 年 半衰期 ”， 
同时 考虑 田 金 萍 总 结 的 人 工 智能 的 5 个 发 展 阶段 ， 
为 了 方便 时 间 片 划 入 对 应 发 展 阶 段 ,本 文 根 据 发 表 时 
间 将 文献 以 6 年 为 区 间 划 分 为 11 个 时 间 片 ,其 中 2016 
-2017 单独 组 成 一 个 时 间 片 。 各 个 时 期 的 文献 数量 
变化 见 图 2,1956 — 1991 年 间 发 文 量 平缓 上 升 ,1992 - 
2009 年 间 发 文 量 呈 指数 式 增长 ,反映 了 学 者 开始 在 这 
一 领域 发 力 , 人工 智 能 研究 热度 快速 提高 ,其 中 2016 
- 2017 时 间 片 只 包含 两 年 时 间 , 收 录 的 文章 数量 较 
少 。 专 家 及 论文 数据 可 通过 API 获取 (http://doc. a- 


miner. org/en/]latest/ ) 。 


2 文献 数量 变化 


4.2 主题 识别 与 关联 

获取 文献 之 后 首先 进行 预 处 理 , 通 过 RAKE 算法 
提取 关键 词 并 进行 词 形 还 原 ,选取 各 时 间 片 出 现 频率 
最 高 的 前 1 000 个 关键 词 ,通过 人 工 方式 构建 停 用 词 
表 。 为 了 看 清 领域 的 宏观 主题 变化 ,初次 聚 类 下 值 可 
以 设置 小 一 些 , 此 处 定 为 10 ,通过 Kmeans++ 算法 求 得 
各 个 时 间 片 上 的 主题 。 通 过 谱 聚 类 的 方式 合并 类 似 的 
主题 , 谱 聚 类 的 值 同 样 设 置 为 10。 初 次 聚 类 后 如 果 
某 个 时 间 片 上 10 个 主题 相关 度 不 高 ,经 谱 聚 类 后 的 该 
时 间 片 主题 数 可 以 保持 为 10; 如 果 一 些 主题 的 相关 度 
很 高 ,经 谱 聚 类 可 被 合并 成 一 个 主题 ,从 而 实现 了 主题 
数量 的 动态 调整 。 主 题 的 识别 结果 见 表 1。 

11 个 时 间 片 共识 别 出 68 个 主题 , 接 下 来 使 用 基于 
加 权 雅 克 比 相似 度 计算 进行 主题 关联 。 经 过 尝试 , 当 
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相似 度 阔 值 设置 为 0.2 时 显示 效果 最 好 ,相似 度 大 
于 阅 值 则 判定 主题 对 之 间 上 共有 关联 关系 。 
4.3 领域 发 展 路 径 分 析 

经 过 可 视 化 处 理 之 后 ,人 工 智能 领域 发 展 路 径 见 
35 

主题 变迁 图 中 包含 点 和 线 两 种 元 素 , 其 中 点 表示 
某 一 时 间 片 上 具体 的 研究 主题 , 线 表 示 主 题 之 间 关 联 ， 
线 的 粗细 表示 关联 强 弱 。 从 左 向 右 随 着 时 间 的 推移 ， 
时 间 片 上 不 断 发 生 主题 的 产生 、 消 亡 、 继 承 、 融 合 和 分 
裂 。 根 据 人 工 智 能 5 个 发 展 阶段 的 理论 ,本文 将 11 
个 时 间 片 进行 划分 ,其 中 [1956 - 1961 ] 为 第 一 阶段 ， 
[1962 - 1967 ] 、[ 1968 - 1973 ] 为 第 二 阶段 , [1974 - 
1979] [1980 - 1985 ] ,[ 1986 - 1991 | 作为 第 三 阶段 ， 
[1992 - 1997] 作 为 第 四 阶段 ,[1998 -2003] [2004 - 


AR, KE, 唐 杰 , 等 .基于 主题 变迁 的 领域 发 展 路 径 智能 化 识别 


narren]. a a DOC RT 


62 —71; 
R1 主题 识别 结果 

时 间 片 主题 数量 主题 群 
1956 —1961 5 inform retriev, associmemori , oper research, intellig system, inform theori 
1962 —1967 6 inform process, decistheori, mathemat, system analysi, kinet, automat control 
1968 -1973 6 semant, pattern recognit, heurist, formal languag, modal logic, set theori 
1974 —1979 6 semant network, naturlanguag, simul, decis support system, logic, control structur 
1980 - 1985 7 inform retriev, expert system, data process, decis support system, knowledg represent, naturlanguag,, pattern recognit 
1986 —1991 6 distribut process, expert system, neural network , computarchitectur, learn method , parallel process 
1992 —1997 Y expert system, computarchitectur, neural network , fuzzi logic, knowledgebas system, comput model, softwarengin 
1998 - 2003 5 knowledg base system, fuzzi logic, mobil robot, neural network, semant web 
2004 — 2009 7 predict model, neural network, adapt system, multiag system, inform retriev, semant web, pattern recognit 
2010 -2015 d fuzzi logic, comput complex, multiag system, social media, neural network, predict, bioinformat 
2016 -2017 6 knowledgmanag, bayesian network, object function, graphic model, real world, neural network 
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200%] [2010 - 2015 ] [2016 - 2017 ] 作为 第 五 阶段 。 
S -2017] 时 间 片 只 包含 两 年 时 间 ,收录 的 文 
章 数 量 较 少 , 而 在 可 视 化 设计 逻辑 中 节点 宽度 和 时 间 
片 久 章 的 数量 成 正 相 关 , 主题 变迁 图 在 最 后 一 个 时 间 
PREEK HAR ATE ENRERE 
图 可 以 通过 网 页 访问 (网 址 : http://118. 24. 155. 51: 
8080/trend_ai/)。 网 页 中 节点 可 以 拖 动 ,鼠标 停留 在 
节点 上 会 显示 节点 的 核心 的 5 个 主题 关键 词 和 主要 的 
5 个 专家 学 者 。 

由 于 第 三 阶段 在 人 工 智能 的 发 展 历程 中 起 到 承 前 
启 后 的 作用 ,限于 篇 幅 , 本 文选 取 第 三 阶段 (1974 - 
1991 进行 深入 的 主题 内 容 的 分 析 。 第 三 阶段 的 放大 
图 见 图 4。 

从 图 4 可 以 直观 地 看 出 第 三 阶段 的 研究 热点 , 包 
括 专 家 系统 (expert system ) 、 神 经 网 络 ( neural net- 
work) 知识 表示 (knowledge represent ) , H ZA i8 zi 4b JE 
( naturlanguag) 、 并 行 处 理 (parallel process) 等 。 

4.3.1 主题 强度 变化 ,关联 分 析 ”专家 系统 在 第 三 阶 
段 中 出 现 了 两 次 且 线条 较 粗 , 其 中 T2 中 的 专家 系统 和 


图 3 AIS 


comput architectur 
comp | 


能 领域 发 展 路 径 


1974-1980 (T1) 1980-1986 (T2) 1986-1992 (T3) 


图 4 第 三 阶段 主题 


TI 中 的 自然 语言 处 理 强 相关 ,T3 中 的 专家 系统 和 T2 
中 的 知识 表示 强 相 关 , 这 说明 专家 系统 融合 了 多 项 之 
前 的 研究 结果 ,成 为 这 段 时 间 的 核心 研究 主题 。 现 实 
中 ,20 世纪 60 年 代 到 70 年 代 末 ,由 斯 坦 福 大 学 开发 出 
的 DENDRAL 质谱 分 析 系 统 标志 着 专家 系统 的 出 现 ， 
人 工 智能 的 研究 由 此 进入 新 领域 。 神 经 网 络 在 T3 时 
间 片 上 出 现 , 其 与 T2 中 决策 支持 系统 、 自 然 语 言 处 理 
和 信息 抽取 相关 联 , 说 明神 经 网 络 的 研究 得 益 于 这 三 
类 学 科 的 发 展 。 知 识 表示 在 T2 时 间 片 出 现 ,20 世纪 
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80 年代, 日 本 启动 能 够 进行 大 规模 并 行 处 理 的 第 五 代 
计算 机 研制 计划 ,有 关 知 识 工程 的 研究 开始 进入 繁盛 
期 。T2 时 间 片 上 pattern recognit( 模式 识别 ) 和 前 后 时 
间 片 上 的 研究 主题 关联 较 弱 ,在 图 中 表示 为 一 个 孤立 


4.3.2 主题 内 容 变迁 分 析 通过 两 次 聚 类 的 方式 获 
得 了 每 个 时 间 窗 口内 研究 的 核心 主题 和 主题 相关 关键 
词 ,选取 每 个 主题 出 现 频次 Top5 的 关键 词 表示 主题 的 
详细 内 容 , 对 主题 进行 深入 分 析 。 第 三 阶段 所 有 主题 


的 点 


如 表 2 所 示 : 


2308.00627v1 


o 
R2 第 三 阶段 所 有 主题 
时 间 片 主题 名 称 关键 词 
TI control structure control structur, theorem, product system, dynam program, human expert 
Logic logic, fuzzi logic, knowledg represent, membership function, infer rule 
decision support systems decis support system, computsimul, linear program, optim, comput complex 
simulation simul, distributeomput, game theori, manag, distribut system 
semant network semant network, data structur, data manag, databasmanag, data model 
nature language naturlanguag, semant, pattern recognit, comput linguist, inform process 
T2 expert system expert system , rule base, spectrum, knowledgengin, knowledgacquisit 


T3 


data processing 
decision support systems 
knowledg represent 
nature language 
inform retrieve 
pattern recognition 
distribution process 
expert system 
neural network 
computer architecture 
learning method 


parallel processing 


data process, computarchitectur, distributcomput, parallel process, comput network 
decis support system, manag, oper research, decis support, computapplic 
knowledg represent, conceptu model, fuzzi logic, knowledg base system, probabl 
naturlanguag, reason, mathemat model, inform process, problem solv 

inform retriev, manag system, user interfac, knowledgmanag, inform analysi 
pattern recognit, product system, imag process, dynam program, heurist search 
distribut process, softwarengin, oper system, decis support system, architectur design 
expert system, knowledg represent, knowledg base system, logic program 

neural network , inform retriev, intellig system, bioinformat, biomed research 
computarchitectur, cognit, robot, mobil robot, network 

learn method, bayesian network, converg, genet, search space 


parallel process, data structur, comput network , schedul, real time system 


N 
”模型 能 够 识别 出 的 每 个 时 间 片 的 研究 主题 。 从 表 


家 系统 的 细微 变化 可 以 看 出 ,专家 系统 由 开始 的 规则 


2。 晤 以 看 出 :每 个 主题 的 方向 较为 明确 , 且 其 中 的 关键 
记 沙 外 表明 主题 的 研究 内 容 。 以 3 中 的 神经 网 络 为 
CELP neural network( 神 经 网 络 ) „inform retriev ( 信息 
Tiii) intellig system ( 4E! fE Z& Zi ) , bioinformat (生物 信 
息 5Qbiomed research ( 生物 医学 研究 ) 这 5 个 词 出 现 频 
次 最 高 ,说 明 最 初 的 神经 网 络 和 生物 技术 研究 关系 比 


较 紧 密 , 这 反映 了 一 个 事实 :神经 网 络 起 源 于 人 类 对 于 
大 脑 神经 元 的 研究 。 智 能 系统 说 明了 神经 网 络 最 初 的 
应 用 场景 。 

从 表 2 中 可 以 看 出 随 着 时 间 的 推进 研究 主题 内 容 
不 断 变化 。 以 专家 系统 为 例 ,I2 中 专家 系统 中 包含 
rule base( 基于 规则 ) spectrum ( 质谱) ,knowledgengine 
CIA S] SE) , knowledgacquisit ( 知识 获取 ) ,表明 由 质 
谱 分 析 发 展 而 来 的 一 些 类 似 系统 共同 组 成 了 新 一 代 专 
家 系统 ,此 时 的 专家 系统 基于 规则 ,集成 了 知识 。 从 
T2 至 T3 的 发 展 过 程 中 ,I2 中 的 专家 系统 和 知识 表示 
发 生 融 合 形成 新 一 代 专 家 系统 ,包含 knowledg repre- 
sent( 知识 表示 ) 、knowledg base system ( 基于 知识 的 系 
统 ) „logic program( 逻辑 程序 ) .knowledg engine ( 知识 引 
擎 ) ,此 时 的 专家 系统 更 加 注重 知识 。 从 两 个 阶段 的 专 
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导向 逐渐 演化 成 为 知识 导向 。 

4.3.3 主题 相关 学 者 变迁 分 析 模型 基于 学 者 对 关 
键 词 进行 聚 类 ,每 一 个 类 的 质心 指向 该 主题 的 核心 学 
者 ,由 此 可 以 看 出 在 研究 主题 融合 和 分 裂 的 过 程 中 学 
者 的 变化 ,学 者 的 变化 可 以 从 侧面 反映 主题 内 部 研究 
方向 的 变化 ,图 5 所 示 的 弹 框 中 包含 了 主题 的 关键 信 
息 和 核心 学 者 。 


zert eo UPPER comput archjtectur 
rr comput model 

ita progess x 

support s 

o. Keyword Author 


ledg re expert system Bruce G. Buchanan 


rule base | Carl Djerassi 
tur langu 
[ spectrum | Edward H. Shortliffe 
:ern red 

robot | Rodney A. Brooks 


knowledg engin | Edward A. Feigenbaum 


图 5 主题 节点 内 容 


选取 专家 系统 有 关 的 学 者 进行 进一步 分 析 , 专 家 
系统 作为 一 个 单独 的 主题 在 1980 - 1986 时 间 片 首次 
出 现 , 在 1992 - 1998 时 间 片 最 后 一 次 出 现 ,共计 在 3 


AR, 张 超 , dA, 等 .基于 主题 变迁 的 领域 发 展 路 径 智能 化 识别 
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以 人 工 知 能 为 例 [J]. I SUA DOR S2 (13) : 


个 时 间 阶 段 出 现 。 如 表 3 所 示 : 
RI 专家 系统 相关 学 者 
时 间 片 核心 学 者 
B. G. Buchanan,C. Djerassi, E. H. Shortliffe, R. A. Brooks, 


1980 — 1985 


E. A. Feigenbaum 


1986 —1991 H. Prade, D. Dubois, P. R. Cohen, Y. Wilks, S. C. Shapiro 


N.R. Jennings, R. A. Brooks, E. Horvitz, A. K. Mackworth, 
1992 — 1998 
T. M. Mitchell 


1980 - 1985 时 间 片 的 5 名 专家 学 者 中 , B. G. 
Buchanan 是 匹 效 保 大 学 计算 机 科学 系 教授 ,他 与 E. A. 
Feigenbaum 等 科学 家 共同 研发 了 第 一 代 专 家 系统 
DENDRAL, 这 是 一 款 应 用 于 质谱 分 析 (spectrum) 的 专 
SUR, C. Djerassi 在 化 学 研究 中 大 量 应 用 质谱 分 
析 , 扩 展 了 专家 系统 的 应 用 场景 o E. H. Shorliffe 
的 研究 和 医疗 相关 ,他 在 本 时 间 片 内 发 表 了 大 量 和 医 
痒 洗 询 系统 设计 与 专家 系统 性 能 优化 相关 的 文章 P” 。 
由 此 ,从 专家 的 研究 方向 可 以 看 出 该 时 间 片 内 专家 系 
红 高 度 专业 化 ,以 解决 某 一 领域 的 特定 问题 为 目标 。 
1986 - 1991 时 间 片 中 ,HH. Prade .D，Dubois 的 研究 
各 模糊 理论 相关 ,日 . Prade 发 表 了 基于 可 能 性 理论 提 
下 蝇 有 基于 规则 的 专家 系统 的 文章 。P，R，Cohen、 
YE Wilks,S. C. Shapiro 三 人 的 研究 聚焦 于 信息 抽取 、 
HORA TERES, P. R. Cohen 改进 GRANT 专家 系统 存 
在 的 性 能 下 降 问 题 ””。 第 二 代 专家 系统 引入 了 信息 
抽 吉 模糊 理论 和 不 确定 推理 技术 ,通用 性 更 强 ,一 定 
程 大 上 解决 了 第 一 代 专 家 系统 过 度 专业 化 的 干 端 
.三 1992 - 1998 时 间 片 中 ,N. R. Jennings 的 研究 和 多 
智能 体系 统 (multi agent system) 相关 ,该 系统 用 于 解决 
单 不 专家 系统 难以 解决 的 问题 。E，Horvitz 在 此 时 
间 片 内 进行 决策 理论 .可 能 性 模型 相关 研究 “1。T. 
M. Mitchell 是 人 工 智能 领域 的 核心 学 者 ,他 在 本 时 间 
片 中 发 表 了 从 互联 网 上 提取 知识 相关 的 文章 5 。 这 
一 阶段 核心 专家 的 研究 方向 较为 分 散 ,可 以 看 出 传统 
的 专家 系统 研究 日 渐 式微 ,其 研究 的 内 容 逐 渐 转 向 大 
规模 知识 获取 .知识 表示 以 及 多 专家 系统 协作 。 

4.4 ”领域 发 展 路 径 识别 有 效 性 验证 

验证 方法 的 有 效 性 ,是 主题 变迁 研究 中 普遍 存在 
的 一 个 难题 。 对 于 主题 内 容 变迁 和 主题 强度 变迁 , 现 
阶段 并 没有 通用 的 标准 能 够 对 结果 的 有 效 性 进行 评 
估 ; 对 于 不 同 的 主题 变迁 模型 ,也 缺乏 有 效 的 定量 比较 
JEU 。 除 了 定量 指标 之 外 ,笔者 更 加 关心 的 是 识别 
出 的 主题 变迁 是 否 能 够 真实 反映 领域 发 展 的 实际 情 
况 , 因 此 召开 了 专家 咨询 会 议 对 结果 进行 评估 ,与 会 专 


家 包括 2 位 副 高 级 职称 计算 机 领域 专家 、1 位 博士 研 
究 生 和 2 位 硕士 研究 生 。 

经 过 评 佑 ,专家 认为 识别 出 的 人 工 智 能 领域 发 展 
路 径 总 体 结果 准确 ,不 同时 间 片 间 主 题 和 主题 之 间 的 
关联 较为 合理 ,可 视 化 展示 较为 清晰 ,对 于 研判 人 工 智 
能 领域 技术 发 展 具 有 一 定 的 参考 价值 。 但 同时 存在 着 
一 些 问题 :四 一 些 主题 出 现 的 时 间 节 点 有 偏差 ;@ 在 近 
期 的 研究 中 ,一 些 主题 被 遗漏 ,例如 语音 识别 ,计算 机 
视觉 ;@ 主 题 之 间 具 有 层次 关系 ,但 是 在 图 中 所 有 的 主 
题 都 是 并 列 排 布 。 

经 过 分 析 笔 者 认为 :主题 出 现时 间 有 偏差 ,可 能 是 
由 于 知识 扩散 需要 一 定 的 时 间 ,导致 专家 所 做 的 评判 
和 与 基于 数据 挖掘 而 做 的 评判 存在 一 定 的 差异 。 对 于 
近期 一 些 主题 被 遗漏 的 情况 ,笔者 在 原始 数据 中 对 这 
些 主 题 进行 手动 检索 ,发 现 相关 的 文章 数量 偏 少 ,可 能 
是 由 于 这 些 主题 学 界 研究 较 少 ,但 在 工业 界 研 究 较 多 ， 
针对 这 一 情况 需要 引入 其 他 数据 (例如 专利 ) or 8 5 
进行 修正 。 针 对 主题 之 间 的 层次 关系 ,笔者 在 未 来 的 
工作 中 将 尝试 引入 Wiki 百科 树 形 结构 知识 ,在 聚 类 时 
考虑 关键 词 的 粒度 信息 。 经 过 分 析 笔 者 发 现 ,结果 中 
有 不 符合 专家 认 知 的 情况 ,主要 因为 数据 源 单一 造成 
了 一 定 程度 的 偏差 ,因此 在 未 来 的 研究 中 我 们 将 会 对 
数据 源 进行 扩展 ,利用 多 源 数 据 优化 领域 发 展 路 径 的 
Pa" 
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本 文采 用 两 层 聚 类 与 相似 度 计 算 相 结合 的 方法 ， 
探索 领域 主题 变迁 ,利用 D3. js 语言 对 主题 变迁 结果 
进行 可 视 化 展示 ,并 以 人 工 智 能 领域 为 例 对 该 方法 的 
有 效 性 进行 验证 。 

本 研究 的 意义 在 于 :中 提出 基于 主题 变迁 的 领域 
发 展 路 径 识别 方法 ,在 常用 的 主题 识别 方法 基础 上 引 
入 学 者 信息 ,从 多 视角 更 加 全 面 地 分 析 技 术 主 题 变迁 ， 
为 领域 发 展 路 径 相关 研究 提供 新 的 方向 ;@ 本 文 所 提 
出 的 方法 可 以 用 于 分 析 领 域 技术 发 展 规律 ,帮助 科研 
人 员 快 速 定 位 领域 发 展 热点 和 重要 学 者 ,辅助 科技 决 
策 ;@ 相 比 传统 方法 ,本 文 提 出 的 方法 更 加 方便 快捷 ， 
通过 输入 领域 名 称 ,可 全 自动 地 输出 领域 发 展 路 径 图 。 
该 方法 将 产品 化 上 线 ,帮助 更 多 的 人 直观 地 了 解 科 学 
发 展 动态 ,接触 领域 发 展 前 沿 。 

然而 ,本 文 把 时 间 片 大 小 设置 为 不 可 变 , 未 考虑 领 
域 发 展 的 速度 ,例如 由 于 计算 能 力 的 限制 ,人 工 智 能 前 
期 发 展 缓慢 ,此 时 时 间 跨 度 应 该 设 大 一 些 ; 近 些 年 来 随 
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着 云 计算 ,大 数据 的 广泛 应 用 ,人 工 智 能 


该 以 细 粒 度 划 分 时 间 窗 口 。 因 此 在 接 下 来 的 研究 中 ， 
笔者 将 根据 领域 的 实际 情况 ,灵活 设 定 不 同 领域 的 时 
间 窗 口 大 小 ,从 而 提高 主题 变迁 分 析 的 准确 性 与 合理 
性 。 本 文 预 处 理 过 程 中 去 停 用 词 还 停留 在 人 工 处 理 的 
阶段 ,需要 找到 针对 不 同 领域 的 通用 设置 停 用 词 方案 。 
另外 还 需要 引入 多 源 数 据 , 解 决 单一 数据 造成 的 局 限 
性 。 
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Q "Abstract; [ Purpose/significance ] Identifying the trajectory of development is of great importance to scientific and 


technological innovations. However, existing methods such as expert interviews and citation analysis cannot meet the cur- 


rént.situation of the explosive growth of literature. In response to this problem, this paper proposes a new identification 


method of filed development trajectory. [ Method/process | This method identifies the research topics and related scholars 


by using Kmeans++ and spectral clustering algorithms with the keyword -scholar matrix, calculates the correlation between 


different topics, and finally visualizes the trajectory of developmen. [ Result/conclusion | Through the empirical analysis 


of the field of artificial intelligence, the results show that the method can effectively reflect the evolution of the topic of 


field research, help researchers quickly locate popular research topics and focuses, and enrich the research methods relat- 


ed to the trajectory of field development . 
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